我们提出了一个名为Star-GNN的视频特征表示学习框架,该框架在多尺度晶格功能图上应用了可插入的图形神经网络组件。 Star-GNN的本质是利用时间动力学和空间内容以及帧中不同尺度区域之间的视觉连接。它对带有晶格特征图的视频进行建模,其中节点代表不同粒度的区域,其加权边缘代表空间和时间链接。上下文节点通过图形神经网络同时汇总,并具有训练有检索三重损失的参数。在实验中,我们表明Star-GNN有效地在视频框架序列上实现了动态注意机制,从而强调了视频中动态和语义丰富的内容,并且对噪声和冗余是强大的。经验结果表明,STAR-GNN可实现基于内容的视频检索的最新性能。
translated by 谷歌翻译
经过对人体跟踪系统引起的隐私问题的调查,我们提出了一种黑盒对抗攻击方法,该方法对最先进的人类检测模型,称为Invisibilitee。该方法学习了可打印的对抗图案,适用于T恤,这些T恤在人体跟踪系统前的物理世界中抓起佩戴者。我们设计了一种角度不足的学习方案,该方案利用了时尚数据集的分割和几何扭曲过程,因此生成的对抗模式可有效从所有摄像机角度和看不见的黑盒检测模型欺骗人检测器。数字环境和物理环境中的经验结果表明,随着Invisibilitee的启用,人体跟踪系统检测佩戴者的能力显着下降。
translated by 谷歌翻译
在这份技术报告中,我们介绍了数字写作助手(高效且智能编辑),该助手通过使用人工智能(AI)技术来促进用户更有效地编写更高质量的文本。以前的写作助理通常提供错误检查的功能(以检测和纠正拼写和语法错误)和有限的文本练习功能。随着大型神经语言模型的出现,一些系统支持自动完成句子或段落。在Effidit中,我们通过提供五个类别的功能来显着扩展写作助手的能力:文本完成,错误检查,文本抛光,关键字到句子(K2S)和云输入方法(Cloud IME)。在文本完成类别中,Effidit支持基于生成的句子完成,基于检索的句子完成和短语完成。相比之下,到目前为止,许多其他写作助理仅提供三个功能中的一两个。对于文本抛光,我们具有三个函数:(上下文感知)短语抛光,句子释义和句子扩展,而其他许多写作助手通常会在此类别中支持一两个功能。本报告的主要内容包括象征的主要模块,实施这些模块的方法以及一些关键方法的评估结果。
translated by 谷歌翻译
我们在这项工作中展示了内存密集型计算可能导致由于片上存储器访问和CPU-GPU上下文切换开销导致严重的性能问题,以及各种深度学习模型。对于此问题,当前立即(JIT)内核融合和代码生成技术具有局限性,例如粗融合计划探索策略和有限的代码生成能力。我们提出了FusionStecting,一个能够融合内存密集型运营商的深度学习编译器,具有各种数据依赖性和非同一性并行性,进入大型GPU内核,以减少全局内存访问和上下文切换开销。 FusionStecting通过引入中间值的数据重用来扩大融合可以超越先前JIT工作的操作组合范围。它探讨了大型融合空间,以便通过考虑内存访问成本,内核呼叫和资源使用约束来决定最佳融合计划。 FusionStecting通过有效地调整具有域特定成本模型的最佳拼接方案。实验结果表明,与现有技术相比,FusionStecting可以达到2.21倍的加速,平均为1.45倍。除了这些实验结果之外,我们还将我们的方法集成到编译器产品中,并将其部署到具有数千个GPU的AI工作负载的生产集群。该系统已运行超过4个月,平均节省了7,000 GPU小时,每月约有30,000个任务。
translated by 谷歌翻译
图像聚类是一种非常有用的技术,可广泛应用于各个区域,包括遥感。最近,通过自我监督学习的视觉表示大大改善了图像聚类的性能。为了进一步改善训练良好的聚类模型,本文提出了一种新的方法,该方法是根据对当前群集的属性在每个集群中首先对样本进行排名的方法模型。为了对样品进行排名,我们开发了一种根据当前群集的样本的可能性,根据它们是否位于人口稠密的社区中,而在训练模型的同时,我们提供了加权排名样本的策略。我们提出了广泛的实验结果,这些结果表明新技术可用于改善最新的图像聚类模型,从而实现准确性的性能增长范围从$ 2.1 \%\%$到$ 15.9 \%$ $。在遥感中的各种数据集上执行我们的方法,我们表明我们的方法可以有效地应用于遥感图像。
translated by 谷歌翻译
长期椎骨骨折严重影响了患者的生活质量,导致脑诊断,腰椎畸形甚至瘫痪。计算机断层扫描(CT)是在早期筛查该疾病的常见临床检查。但是,微弱的放射学表现和非特异性症状导致遗体诊断的高风险。特别是,对于深度学习模型和缺乏经验的医生而言,轻度骨折和正常对照很难区分。在本文中,我们认为增强微弱的断裂特征以鼓励阶层间的可分离性是提高准确性的关键。在此激励的情况下,我们提出了一个基于对比度学习的监督模型,以通过CT扫描估算Genent的椎骨骨折等级。作为一项辅助任务,受监督的对比学习在将其他人推开的同时缩小了同一类中特征的距离,从而增强了模型捕获椎骨骨折的微妙特征的能力。考虑到该领域缺乏数据集,我们构建了一个数据库,其中包括经验丰富的放射科医生注释的208个样本。我们的方法的特异性为99 \%,在二元分类中的敏感性为85%,在多分类中的Macio-F1为77 \%,表明对比度学习显着提高了椎骨骨折筛选的准确性,尤其是在轻度断裂和正常对照。我们的脱敏数据和代码将公开为社区提供。
translated by 谷歌翻译
在社交媒体平台上共享的用户视频通常会受到由未知专有处理程序引起的降解,这意味着它们的视觉质量比原始产品差。本文提出了一个新的一般视频修复框架,用于恢复社交媒体平台上共享的用户视频。与执行端到端映射的大多数基于学习的视频恢复方法相反,在该方法中,特征提取大部分被视为黑匣子,从某种意义上说,功能通常未知的角色,我们的新方法,称为视频通过自适应退化感测(投票)恢复,引入了降解功能图(DFM)的概念,以明确指导视频恢复过程。具体而言,对于每个视频框架,我们首先自适应地估算其DFM以提取代表难以恢复其不同区域的功能。然后,我们将DFM馈送到卷积神经网络(CNN)以计算层次结构降解功能以调节端到端视频恢复骨干网络,从而明确地将更多注意力引起到潜在的更难恢复领域的领域,这又要引起铅的领域。增强恢复性能。我们将解释投票框架的设计基本原理,并提出广泛的实验结果,以表明新的投票方法在定量和定性上都优于各种最新技术。此外,我们为在不同社交媒体平台上共享的用户视频的大规模现实世界数据库提供了贡献。代码和数据集可从https://github.com/luohongming/votes.git获得
translated by 谷歌翻译
作为计算机视觉的基本任务,图像相似性检索正面临大规模数据和图像复制攻击的挑战。本文介绍了由Facebook AI组织的图像相似性挑战(ISC)2021的匹配轨道的第3个解决方案。我们提出了一种组合全局描述符和本地描述符的多分支检索方法来覆盖所有攻击案例。具体而言,我们尝试了许多策略来优化全局描述符,包括丰富的数据增强,具有单个变压器模型的自我监督学习,覆盖检测预处理。此外,我们介绍了稳健的SIFT功能和GPU Faiss,用于局部检索,弥补了全球检索的缺点。最后,knn匹配算法用于判断匹配和合并分数。我们展示了我们的方法的一些消融实验,揭示了全球和局部特征的互补优势。
translated by 谷歌翻译
在有监督的深度学习中,学习远程感应图像(RSI)的良好表示依赖于手动注释。但是,在遥感领域,很难获得大量的标记数据。最近,自欺欺人的学习显示了其出色的学习图像表示形式的能力,尤其是实例歧视的方法。比较实例歧视的方法,基于聚类的方法不仅查看与``正面样本''相同图像的转换,而且还要查看相似的图像。在本文中,我们提出了一种基于群集的代表学习方法。我们首先介绍衡量表示表示的歧视性的数量,我们从中表明,即使分布都需要最判别的表示。这提供了理论上的见解,说明为什么均匀分发图像效果很好。我们注意到,只有保留邻里关系的均匀分布是可取的因此,我们开发了一种算法,该算法将神经网络的输出转换为实现均匀分发样品的目标,同时保留了输出的邻居关系。广泛的实验表明,我们的方法可以学习比或更好的表示形式。艺术状态的方法,我们的方法执行com在各种RSI数据集上有效地稳健地推荐。
translated by 谷歌翻译
Compressed videos often exhibit visually annoying artifacts, known as Perceivable Encoding Artifacts (PEAs), which dramatically degrade video visual quality. Subjective and objective measures capable of identifying and quantifying various types of PEAs are critical in improving visual quality. In this paper, we investigate the influence of four spatial PEAs (i.e. blurring, blocking, bleeding, and ringing) and two temporal PEAs (i.e. flickering and floating) on video quality. For spatial artifacts, we propose a visual saliency model with a low computational cost and higher consistency with human visual perception. In terms of temporal artifacts, self-attention based TimeSFormer is improved to detect temporal artifacts. Based on the six types of PEAs, a quality metric called Saliency-Aware Spatio-Temporal Artifacts Measurement (SSTAM) is proposed. Experimental results demonstrate that the proposed method outperforms state-of-the-art metrics. We believe that SSTAM will be beneficial for optimizing video coding techniques.
translated by 谷歌翻译